大量工作表明,机器学习(ML)模型可以泄漏有关其培训数据的敏感或机密信息。最近,由于分布推断(或属性推断)攻击引起的泄漏正在引起人们的注意。在此攻击中,对手的目标是推断有关培训数据的分配信息。到目前为止,对分布推理的研究集中在证明成功的攻击上,而很少注意确定泄漏的潜在原因和提出缓解。为了弥合这一差距,作为我们的主要贡献,我们从理论和经验上分析了信息泄漏的来源,这使对手能够进行分布推理攻击。我们确定泄漏的三个来源:(1)记住有关$ \ mathbb {e} [y | x] $(给定特征值的预期标签)的特定信息,((2)模型的错误归纳偏置,以及(3)培训数据的有限性。接下来,根据我们的分析,我们提出了针对分配推理攻击的原则缓解技术。具体而言,我们证明了因果学习技术比相关学习方法更适合特定类型的分布推理所谓的分配构件推理。最后,我们提出了分布推断的形式化,该推论允许对比以前更多的一般对手进行推理。
translated by 谷歌翻译
能够替换人类判断的自动评估指标对于允许快速开发新方法至关重要。因此,许多研究工作集中在制定此类指标上。在这项工作中,我们退后一步,通过比较现有的自动指标和人类指标的身体来分析最近的进度。由于指标是根据它们的排名系统的方式使用的,因此我们比较系统排名空间中的指标。我们广泛的统计分析揭示了令人惊讶的发现:自动指标 - 新老 - 与彼此相比,比人类更相似。自动指标不是互补的,等级系统也类似。令人惊讶的是,人类指标彼此相互预测要比所有用于预测人类指标的自动指标的组合要好得多。令人惊讶的是,人类指标通常被设计为独立,以捕获质量的不同方面,例如内容保真度或可读性。我们对这些发现和建议进行讨论,以在评估领域的未来工作。
translated by 谷歌翻译
我们描述了一种基于学习模糊加权规则的连续变量的可解释预测的新方法。我们的模型训练一组加权规则,以最大化预测准确性并最大程度地减少基于本体的“语义损失”功能,包括对规则的用户指定的约束,以最大程度地从用户角度来看,以最大程度地解释所得规则的解释性。该系统将定量的亚符号学习与符号学习和基于领域知识的约束融合。我们在一个案例研究中说明了我们的系统,以预测戒烟行为干预的结果,并表明它表现优于其他可解释的方法,实现与深度学习模型接近的绩效,同时提供透明的解释性,这是决策的必要要求 - 卫生领域的制造者。
translated by 谷歌翻译
人们普遍认为,美国政治语言的语气最近变得更加消极,尤其是当唐纳德·特朗普(Donald Trump)进入政治时。同时,关于特朗普是改变还是仅仅持续以前的趋势存在分歧。迄今为止,关于这些问题的数据驱动证据很少,部分原因是很难获得政客话语的全面,纵向记录。在这里,我们将心理语言工具应用于一个新闻中的2400万报价的新颖,全面的语料库,归因于18,627位美国政治家,以分析美国政客语言的语气在2008年至2020年之间的演变。我们表明,负面的频率在奥巴马任职期间,情感词不断下降,随着2016年主要运动的突然且持续增加了挑战前的标准偏差,即竞选前平均值的8%,以跨各方出现的模式。当省略特朗普的报价时,效果的规模下降了40%,当平均说话者而不是报价时,效果的规模下降了50%,这意味着著名的说话者,尤其是特朗普,尽管并不仅仅限于负面语言的贡献。这项工作提供了第一个大规模数据驱动的证据,表明特朗普的竞选活动开始作为催化剂,朝着更负面的政治语调转变,对有关美国政治状况的辩论产生了重要影响。
translated by 谷歌翻译
归因引号的使用是新闻中信息传播的最直接,最少过滤的途径。因此,引用在新闻报道的概念,接收和分析中起着核心作用。由于报价比常规报告提供了更直接的窗口,因此对于记者和研究人员来说,它们是宝贵的资源。尽管大量的研究工作已致力于自动提取新闻的报价及其归因于演讲者的方法,但很少有当代来源的全面归因报价可供公众提供。在这里,我们提出了一个自适应网络界面,用于搜索QuoteBank,这是新闻中的大量报价集合,我们可以在https://quotebank.dlab.tools上提供。
translated by 谷歌翻译
由于看不见和新兴实体的频率,新闻中的命名实体链接(NEL)是一项具有挑战性的努力,因此需要使用无监督或零摄像的方法。但是,这种方法往往会带来警告,例如不整合新兴实体的合适知识库(例如Wikidata),缺乏可扩展性和不良的可解释性。在这里,我们考虑在Quotebank中的人歧义,这是新闻中大量的说话者归类的语言,并调查了NEL在网络规模的语料库中直观,轻巧且可扩展的启发式方法的适用性。我们表现最好的启发式歧义分别在Quotebank和Aida-Conll基准上分别占94%和63%。此外,提出的启发式方法与最先进的无监督和零摄像方法,本本系和MGenRE相比,从而成为无监督和零照片实体链接的强基础。
translated by 谷歌翻译
候选生成是实体链接中的重要模块。它在多个NLP任务中也起着关键作用,这些任务已被证明是有益地利用知识库的。然而,随着幼稚的方法获得很好的表现,它经常在单语的英语实体中被忽略。不幸的是,现有的英语方法不能成功地转移到资源不足的语言中。本文构成了对候选人生成问题的深入分析,即跨语性实体与关注低资源语言的关注。除其他贡献外,我们指出了先前工作中进行的评估的局限性。我们根据其难度将查询的特征介绍给类型,这提高了不同方法的性能的解释性。我们还提出了一个基于索引的构建,其设计是由基于更复杂的转移学习方法的动机,提出了一种轻巧而简单的解决方案。对2个评估设置下的9个现实世界数据集进行了彻底的经验分析表明,我们的简单解决方案在几乎所有数据集和查询类型的质量和效率方面都优于最先进的方法。
translated by 谷歌翻译
目前,用于网站分类的公开型号不提供嵌入式方法,并且对英语的语言有限。我们在92种语言中释放了一个以上的网站,其中包含来自Curlie的相对标签,这是最大的多语种蜂窝Web目录。 DataSet包含14个网站类别遍及语言。除此之外,我们介绍主页2VEC,这是一种机器学习的预训练模型,用于根据他们的主页以语言无话无方式对网站进行分类和嵌入网站。主页2VEC,由于其功能集(文本内容,元数据标记和视觉属性)以及自然语言表示的最新进展,是由设计无关的语言,可以生成嵌入式表示。我们显示主页2VEC正确对网站进行了分类,宏平均F1分数为0.90,具有稳定的性能,以及高资源语言。特征分析表明,即使使用有限的计算资源,也足以实现高性能的小节能。我们将公开可用的Cutated Curlie DataSet横跨语言,预先培训的主页2VEC模型和库。
translated by 谷歌翻译
文本的结构化和接地表示通常是通过封闭信息提取形式化的,提取与从知识库模式的预定义实体集合和关系一致的穷举集(主题,关系,对象)三元组的问题。大多数现有的作品是管道容易出错的累积,所有方法都仅适用于不切实际的少数实体和关系。我们介绍了Genie(生成信息提取),第一端到最终的归属化闭合信息提取。 Genie自然地通过自动生成文本形式的关系和实体来利用预先训练的变压器的语言知识。由于新的双层约束生成策略,仅生产与预定义知识库模式一致的三胞胎。我们的实验表明,Genie在封闭信息提取时是最先进的,从较少的训练数据点广泛地推广到基线,并缩放到以前无管理数量的实体和关系。通过这项工作,封闭的信息提取在现实情景中变得实用,为下游任务提供了新的机会。最后,这项工作为信息提取的核心任务铺平了统一的端到端方法。在https://github.com/epfl-dlab/genie提供的代码和模型。
translated by 谷歌翻译
We present a dynamic path planning algorithm to navigate an amphibious rotor craft through a concave time-invariant obstacle field while attempting to minimize energy usage. We create a nonlinear quaternion state model that represents the rotor craft dynamics above and below the water. The 6 degree of freedom dynamics used within a layered architecture to generate motion paths for the vehicle to follow and the required control inputs. The rotor craft has a 3 dimensional map of its surroundings that is updated via limited range onboard sensor readings within the current medium (air or water). Path planning is done via PRM and D* Lite.
translated by 谷歌翻译